Lire le tableau dans le document

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Lire le tableau dans le document

Cet exemple de code montre comment utiliser le moteur OCR IronTesseract pour extraire du texte et des données de tableau d'un document PDF.

Une instance du moteur OCR IronTesseract est créée.
Un objet OcrInput est initialisé, et un fichier PDF (" table.pdf ") est chargé à l'aide de la méthode LoadPdf.
Le moteur OCR traite le document en utilisant la méthode ReadDocumentAdvanced, qui renvoie un objet OcrResult plus détaillé.
Le premier tableau trouvé dans le document est accessible en utilisant result.Tables.First(), et les informations de cellule de ce tableau sont extraites avec CellInfos.
La liste des données de cellule (cellList) contient maintenant les cellules du tableau, y compris le contenu textuel et d'autres détails (par exemple, la position de la cellule, la taille).
Cette méthode est utile pour extraire des données structurées comme des tableaux à partir de fichiers PDF, permettant d'accéder et de traiter par programmation le texte contenu dans chaque cellule du tableau.